Warning: file_put_contents(aCache/aDaily/post/opendatascience/-2307-2308-2309-): Failed to open stream: No space left on device in /var/www/tg-me/post.php on line 50
Data Science by ODS.ai 🦜 | Telegram Webview: opendatascience/2308 -
Telegram Group & Telegram Channel
Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на обучение на 88%

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart



tg-me.com/opendatascience/2308
Create:
Last Update:

Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на обучение на 88%

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2308

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. “While doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.

Telegram is riding high, adding tens of million of users this year. Now the bill is coming due.Telegram is one of the few significant social-media challengers to Facebook Inc., FB -1.90% on a trajectory toward one billion users active each month by the end of 2022, up from roughly 550 million today.

Data Science by ODS ai 🦜 from cn


Telegram Data Science by ODS.ai 🦜
FROM USA